3장. 토큰과 파라미터, 모델의 단위
이 장의 목표 2장에서 잠깐 본 토큰과 파라미터(B) 를 이제 정식으로 정리합니다.
이 두 가지만 알면 앞으로 만나게 될 거의 모든 숫자가 머릿속에서 그림으로 보입니다.
3.1 토큰 — 모델이 보는 단위
복습부터.
모델은 글자나 단어가 아니라 토큰 이라는 단위로 글을 봅니다.
"오늘 날씨는 맑습니다"
↓
[ "오늘", " 날씨", "는", " 맑", "습니다" ]
토큰은 보통 다음 중 하나입니다.
- 자주 등장하는 단어 통째로 (“the”, “ AI“)
- 자주 등장하는 접두/접미 (“ing”, “ un“)
- 한 글자
영어처럼 알파벳이 적은 언어는 한 토큰이 보통 한 단어에 가까운 반면,
한국어·일본어·중국어는 한 글자 또는 그보다 잘게 쪼개지는 일이 많습니다.
한국어가 영어보다 토큰이 많은 이유
같은 문장을 영어와 한국어로 비교해 봅니다.
영어: "I love local AI."
→ [ "I", " love", " local", " AI", "." ] (5 토큰)
한국어: "저는 로컬 AI를 좋아합니다."
→ [ "저", "는", " 로", "컬", " AI", "를",
" 좋", "아", "합", "니다", "." ] (11 토큰)
같은 의미인데 한국어가 토큰을 두 배 넘게 씁니다.
이게 나중에 이런 결과로 이어집니다.
- 한국어 답변이 영어보다 느리게 느껴짐
- 같은 8K 컨텍스트인데 한국어로는 더 적은 정보만 들어감
3.2 토큰 수 = 시간 = 메모리
토큰이 늘어나면 정확히 세 가지가 늘어납니다.
| 늘어나는 것 | 영향 |
|---|---|
| 입력 토큰 수 | 모델이 처음 읽는 시간(prefill)이 길어짐 |
| 출력 토큰 수 | 답변 생성 시간이 길어짐 |
| 전체 컨텍스트 | 메모리(KV Cache) 사용량이 늘어남 |
요점:
클라우드 AI에서 토큰은 “돈“이고, 로컬 AI에서 토큰은 “시간 + 메모리“입니다.
그래서 로컬 AI에서는 “답변을 짧게 해줘” “불필요한 인사말 빼” 같은 요청이 의외로 큰 차이를 만듭니다.
3.3 파라미터 — 모델 안의 “지식 메모”
이번엔 모델의 크기 표시입니다.
Qwen3-32B
Llama-3-70B
Gemma-3-27B
여기서 B 는 Billion(10억) 입니다.
| 표기 | 의미 |
|---|---|
| 7B | 약 70억 개 |
| 14B | 약 140억 개 |
| 32B | 약 320억 개 |
| 70B | 약 700억 개 |
| 405B | 약 4,050억 개 |
무엇이 70억 개라는 걸까요?
답: 가중치(weight) 라는 숫자입니다.
가중치는 학습할 때 결정된 “세상에 대한 메모” 같은 숫자입니다.
쉬운 비유:
모델 = 거대한 엑셀 시트
파라미터 = 그 시트에 적힌 숫자들
70억 개의 숫자가 모두 합쳐져 “다음 토큰을 예측하는 데 쓰이는 규칙” 을 만들어냅니다.
3.4 파라미터가 많으면 뭐가 좋고 뭐가 나쁜가
좋은 점
- 더 많은 지식을 담을 수 있음
- 더 복잡한 추론이 가능
- 더 다양한 분야를 다룰 수 있음
나쁜 점
- 더 많은 메모리가 필요
- 더 느림 (매 토큰마다 모든 숫자를 봐야 함)
- 다운로드 크기가 큼
- 발열·배터리 소모가 큼
“그럼 무조건 큰 게 좋나요?”
아닙니다.
같은 32B여도 더 잘 만든 32B 가 더 못 만든 70B를 이기는 일이 요즘은 흔합니다.
특히 2025~2026년 모델들은 “잘 다듬은 작은 모델“이 더 인기입니다.
로컬 AI 입문자의 황금 영역 7B ~ 32B
이 범위 안에서 양자화·튜닝을 잘 고르는 게 무거운 70B를 끙끙대며 돌리는 것보다 훨씬 실용적입니다.
3.5 같은 32B인데 왜 어떤 건 20GB이고 어떤 건 64GB인가?
이게 처음 보면 정말 헷갈리는 부분입니다.
Qwen3-32B (원본, FP16) → 약 64GB
Qwen3-32B (Q8 양자화) → 약 35GB
Qwen3-32B (Q4 양자화) → 약 20GB
같은 모델인데 파일 크기가 다릅니다.
이유는 숫자 하나를 표현하는 데 몇 비트(bit)를 쓰느냐 가 다르기 때문입니다.
이 부분이 5장에서 다룰 양자화 이야기입니다.
지금은 이 한 줄만 머리에 넣어두세요.
같은 파라미터 수여도 “한 숫자를 얼마나 정밀하게 저장하느냐” 에 따라 파일 크기와 메모리 사용량이 크게 달라진다.
3.6 그래서 모델 크기를 보면 뭐가 보여야 하는가
이제 모델 이름을 보면 이런 정보가 머릿속에서 자동으로 뜹니다.
Qwen3-32B-Instruct
32B→ 파라미터 약 320억 개, 원본 파일은 60~64GB쯤, Q4로 줄이면 20GB 정도Instruct→ 질문에 답하도록 다듬어진 버전 (2장 §2.4)
Llama-3-70B-Chat
70B→ 큰 모델, 원본 140GB+, Q4여도 40GB 정도라 64GB 맥에서는 무겁게 돈다Chat→ 대화용으로 정렬까지 마친 버전
Qwen3-30B-A3B-Instruct
30B인데A3B가 붙음 → MoE 구조(14장)에서 활성 파라미터가 3B 라는 의미- 메모리는 30B만큼 먹지만 계산량은 3B에 가까움
이 장에서 기억할 한 가지
토큰 = 모델이 읽고 쓰는 단위. 파라미터 = 모델 안의 “지식 숫자” 개수.
토큰이 많을수록 시간·메모리가 늘고, 파라미터가 많을수록 보통 똑똑해지지만 무거워집니다.
그리고 같은 파라미터 수여도 저장 방식(양자화)에 따라 메모리·속도가 크게 달라집니다.
손으로 해볼 것
1. 한·영 토큰 수 직접 비교
tiktokenizer.vercel.app 에 들어가서
다음 두 문장을 차례로 넣어보세요.
저는 오늘 회사에서 처음으로 로컬 AI를 돌려봤습니다.
I ran a local AI on my Mac for the first time today.
같은 의미인데 한국어 토큰 수가 얼마나 더 많은지 직접 보세요.
2. Hugging Face에서 모델 크기 감 잡기
huggingface.co 에서 Qwen3 를 검색해보세요.
7B, 14B, 32B 모델 페이지를 열어 Files and versions 탭에서 원본 파일 용량을 확인하세요.
같은 시리즈인데 파라미터 수가 늘어날 때 파일 크기가 어떻게 늘어나는지 보세요.
다음 장에서는 “내 맥의 64GB 메모리에 32B 모델이 정말 들어가는가?” 를 직접 계산해봅니다.
이때부터 양자화의 필요성이 본격적으로 보이기 시작합니다.